[Day6] LM Studio－一鍵架好你的地端 Chatbot

2024 iThome 鐵人賽

DAY 6

生成式 AI

從系統設計切入，探索 GenAI 在企業中的實踐系列第 6 篇

16th鐵人賽

Pei

團隊SI夢想工程隊

2024-09-07 10:51:04

5001 瀏覽

分享至

有了模型之後再來就是使用介面了。現在有很多快速提供介面的服務像 ChatOllama、OpenGPTs 和 HuggingChat 等等，不過為了快速體驗整個 GenAI 產品功能，並專注在功能面的發想和參數的設定，在這裡都選擇最簡易的方式，首先從地端 Chatbot 操作開始，我們選擇 LM Studio。

硬體設備需求

由於模型是在自己的電腦上跑，所以對於硬體設備有一定的要求，在官網上提到的分別是以下：

Apple Silicon Mac (M1/M2/M3) with macOS 13.6 or newer
Windows / Linux PC with a processor that supports AVX2 (typically newer PCs)
16GB+ of RAM is recommended. For PCs, 6GB+ of VRAM is recommended
NVIDIA/AMD GPUs supported

軟體安裝與模型下載

進入到主頁，依照自己的作業系統下載程式，安裝過程十分直覺，照著步驟點就可以了。
進入程式後，首頁是模型下載頁面，也有最新的 Llama 3.1 模型，選好後點擊下載。
模型都是從 HuggingFace 上下載的，在第二頁搜尋頁面也可以尋找其他模型。
所有下載的 models 都可以在最後一頁查看

模型與參數設定

接著來了解 Chatbot 的參數意義，之後在開發上都可以獨立設定或調整：

使用模型－點擊聊天頁面最上方紫色方框套用下載好的模型，右側 Eject Model 則是取消套用。
提示詞 prompt 設定
- System prompt－在右側 setting 欄位中，目的在設定模型的行為，如：指定角色、引導回應方向、要求輸出格式等。
- Assistant promt－對話框左側點擊 user 切換，用來讓模型預先讀取特定的知識或背景資訊，讓回答可以更符合預期方向。
- User prompt－使用者與模型互動的主要方式，通常是問題或指令，也就是對話框輸入的內容。
進階設定（Advanced Configuration）
- Context Length－這個參數決定了模型在生成回應時，可以參考的前文或上下文的長度。Context Length 越大，模型能讀取的資訊更多、在生成長對話或多輪對話時的連貫性也會越，但也需要更多的 RAM。
- Temperature－控制模型生成文字時隨機性的參數。這個參數影響模型在選擇下一個單詞或 token 時的機率分佈。數值越低，生成的結果會更保守且可預測；越高則生成的結果會更具創造性和不可預測性。
- Tokens to generate－設定每次輸出的 token 數量上限，可以控制生成內容的長度，避免生成過長或過短的回應。
- CPU Threads－表示 CPU 可以同時執行的線程數量，允許同時處理多個任務，可以提高模型運行的處理效率，但同時也會消耗更多的系統資源。
推論參數（Inference Parameters）
- Top K sampling－是生成下一個 token 的方法。模型會根據機率對所有可能的 token 進行排序，選出前 K 個最有可能的 token，再從這些候選 token 隨機選擇一個來生成下個詞語。
- Repeat penality－控制生成文本重複度的參數。會對已經生成過的 token 施加懲罰，減少這些 token 再次被選中的可能性，避免模型在回應中重複相同的詞語或句子。
- Min P sampling－另一種控制生成 token 的方法。在生成下個 token 時，模型只會選擇那些概率大於某個指定閾值 P 的 token。
- Top P sampling－與 Top K Sampling 不同，它是透過機率來選擇 token。模型首先對所有可能的 token 計算機率，然後選擇一組 token，使這些 token 的總機率達到指定的閾值（如 0.9），再從這些候選 token 隨機選擇一個來生成下個詞語。
GPU 設定（GPU settings）
- GPU Acceleration（n_gpu_layers）－計算中有多少層神經網絡層會被分配到 GPU 上運行。層數越多，模型推理的速度也會越快，然而這也要取決於 GPU 有足夠的 VRAM 來處理這些層。
- GPU Backend Type－圖形計算框架的選擇，選擇哪一個版本主要取決於你的硬件配置。
  - CUDA－如果使用的是 NVIDIA GPU，可以選擇 CUDA 版本。
    －Vulkan－如果使用的是其他品牌的 GPU，可以選擇 Vulkan 版本。
Prompt Format－用來定義模型輸出的格式。
模型初始化設定（Model Initialization）
- Keep entire model in RAM－是否將整個模型完全加載到系統的 RAM 中。
- Prompt eval batch size－設定每次推理時可以處理的輸入筆數。可以提高推理過程中的吞吐量，加快多個輸入的同時推理速度。不過，也會佔用更多的VRAM 或 RAM。
- Flash Attention－一種優化技術，用來加速 transformer 模型中的注意力機制運算
- Rotary Position Embedding (RoPE)－用於表示生成式 AI 模型中輸入序列的位置信息。可以保留默認值，除非有特殊需求需要調整。
Export Chat settings: 導出目前的模型設定。已導出的設定可以在 system prompt 上方的欄位中套用。